20 research outputs found

    Stylistic variation over 200 years of court proceedings according to gender and social class

    Get PDF
    We present an approach to detect stylistic variation across social variables (here: gender and social class), considering also diachronic change in language use. For detection of stylistic variation, we use relative entropy, measuring the difference between probability distributions at different linguistic levels (here: lexis and grammar). In addition, by relative entropy, we can determine which linguistic units are related to stylistic variation.This research is funded by the German Research Foundation (Deutsche Forschungsgemeinschaft) under grants SFB1102: Information Density and Linguistic Encoding (www.sfb1102.uni-saarland.de) and the start-up grant for research projects from Saarland University

    Using relative entropy for detection and analysis of periods of diachronic linguistic change

    Get PDF
    We present a data-driven approach to detect periods of linguistic change and the lexical and grammatical features contributing to change. We focus on the development of scientific English in the late modern period. Our approach is based on relative entropy (Kullback-Leibler Divergence) comparing temporally adjacent periods and sliding over the time line from past to present. Using a diachronic corpus of scientific publications of the Royal Society of London, we show how periods of change reflect the interplay between lexis and grammar, where periods of lexical expansion are typically followed by periods of grammatical consolidation resulting in a balance between expressivity and communicative efficiency. Our method is generic and can be applied to other data sets, languages and time ranges.This research is funded by the German Research Foundation (Deutsche Forschungsgemeinschaft) under grants SFB1102: Information Density and Linguistic Encoding (www.sfb1102.uni-saarland.de) and EXC 284: Multimodal Computing and Interaction (www.mmci.uni-saarland.de)

    Modeling intra-textual variation with entropy and surprisal: topical vs. stylistic patterns

    Get PDF
    We present a data-driven approach to investigate intra-textual variation by combining entropy and surprisal. With this approach we detect linguistic variation based on phrasal lexico-grammatical patterns across sections of research articles. Entropy is used to detect patterns typical of specific sections. Surprisal is used to differentiate between more and less informationally-loaded patterns as well as type of information (topical vs. stylistic). While we here focus on research articles in biology/genetics, the methodology is especially interesting for digital humanities scholars, as it can be applied to any text type or domain and combined with additional variables (e.g. time, author or social group).This work is funded by Deutsche Forschungsgemeinschaft (DFG) under grants SFB 1102: Information Density and Linguistic Encoding (www.sfb1102.uni-saarland.de) and EXC 284: Multimodal Computing and Interaction (www.mmci.uni-saarland.de)

    Evaluative Meaning and Cohesion: The Structuring Function of Evaluative Meaning in Scientific Writing

    Get PDF
    We present a diachronic study of evaluative meaning in scientific writing, focusing on evaluative expressions that possibly serve the interpersonal as well as the textual metafunction in terms of Systemic Functional Linguistics (SFL). These are expressions such as importantly or obviously used in sentence-initial position to evaluate what follows but which also establish a cohesive link with the adjacent discourse. For the analysis, the SciTex corpus, comprising nine scientific disciplines, was used. The data were analyzed in macro and micro-analytical steps combining quantitative and qualitative analyses. This allows us to observe generalizable trends as well as fine-grained distinctions

    Evaluative meaning in scientific writing : macro- and micro-analytic perspectives using data mining

    Get PDF
    In this thesis, we elaborate characteristics of evaluative meaning of different scientific disciplines and trace their diachronic linguistic evolution. A main focus lies on newly emerged disciplines, such as computational linguistics, which emerged through contact between two other disciplines, such as computer science and linguistics. Here, we consider (1) whether these newly emerged disciplines have created characteristics of their own over time, showing a process of diversification, and (2) whether they have also adopted characteristics from their disciplines of origin, reflected in a linguistic imprint, and if this might have changed over time. The newly emerged disciplines considered are computational linguistics, bioinformatics, digital construction and microelectronics, which have emerged through contact between computer science and a further discipline (linguistics, biology, mechanical engineering, and electrical engineering, respectively). In terms of theory, this work is grounded in a linguistic theory rooted in sociolinguistics, Systemic Functional Linguistics (SFL; Halliday, 2004), which with its functional perspective on language allowed us to position evaluative meaning within a linguistic theory and to create a model of analysis to trace choices made in the semantic system on the level of lexico-grammar. Moreover, its notion of register, concerned with functional variation, i.e. variation according to language use, combined with the sociolinguistic perspective made it possible to compare the linguistic choices made according to different social contexts, to which the disciplines belong. This allowed us to trace register diversification processes and registerial imprint of evaluative meaning across disciplines. In terms of methods, we apply classification as a data mining technique, taking a macro- and micro-analytic perspective (cf. Jockers, 2013) on the results. Doing so we gain insights on the degree of diversification and imprint (macro-analysis) and the kind of diversification and imprint (micro-analysis). Studies so far have considered either the macro- or the micro-analytic perspective. By considering both, we are able to investigate generalizable trends as well as detailed linguistic characteristics of evaluative meaning across disciplines and time. The approach presented in this thesis draws its strength from being grounded in a linguistic theory, which proved to be extremely useful in defining and testing hypotheses and interpreting results. Moreover, an empirical analysis of evaluative meaning across disciplines and time was possible by combining corpus-based methods with data mining techniques.In der vorliegenden Dissertation werden Bewertungscharakteristiken verschiedener Wissenschaftsdisziplinen erarbeitet und ihre diachrone linguistische Entwicklung untersucht. Ein Hauptfokus liegt auf in neuerer Zeit entstandenen Disziplinen (z. B. Computerlinguistik), die sich durch Kontakt zwischen zwei anderen Disziplinen gebildet haben (z. B. Informatik und Linguistik). In diesem Zusammenhang wird erforscht, (1) ob diese neu entstandenen Disziplinen diachron ihre eigenen Charakteristiken entwickeln und somit einen DiversiïŹkationsprozess aufzeigen und (2) ob sie auch Charakteristiken der Ursprungsdisziplinen ĂŒbernehmen und somit eine linguistische PrĂ€gung aus der Ursprungsdisziplin vorweisen und ob sich diese möglicherweise diachron verĂ€ndert hat. Die untersuchten relativ neu entstandenen Disziplinen sind die Computerlinguistik, Bioinformatik, Bauinformatik und Mikroelektronik, die durch Kontakt zwischen der Informatik und einer anderen Disziplin entstanden sind, in unserem Fall entsprechend aus der Linguistik, Biologie, dem Maschinenbau und der Elektrotechnik. Die Arbeit basiert auf der soziolinguistischen Theorie der Systemisch Funktionalen Linguistik (SFL; Halliday (2004)). Aufgrund ihrer funktionalen Perspektive auf die Sprache war es uns möglich, das semantische Konzept der Bewertung in eine linguistische Theorie zu positionieren und ein Analysemodel zu entwickeln, um die Auswahl aus dem semantischen System auf der lexicogrammatischen Ebene nachzuverfolgen. Besonders wichtig ist hierbei auch das Registerkonzept aus der SFL, das sich mit funktionaler Variation befasst, d.h. Variation in Bezug auf den Sprachgebrauch. Die Kombination aus funktionaler Variation und soziolinguistischer Perspektive hat es erlaubt, die linguistischen Entscheidungen in Bezug auf Bewertungen, die in unterschiedlichen sozialen Kontexten (d.h. den verschiedenen Disziplinen) gefĂ€llt wurden, zu untersuchen und diese zu vergleichen. Dadurch konnten fĂŒr die untersuchten Disziplinen registerspeziïŹsche DiversiïŹkationsprozesse und PrĂ€gungen bezĂŒglich Bewertungen ausgemacht werden. Methodisch wurde aus dem Bereich des Data Mining die KlassiïŹkation angewandt, die es erlaubt hat, die Ergebnisse aus einer makro- und mikro-analytischen Perspektive (vgl. Jockers (2013)) zu erforschen. Dadurch konnten Erkenntnisse erlangt werden in Bezug auf den DiversiïŹkations- und PrĂ€gungsgrad (Makro-Analyse) sowie der Art der DiversiïŹkation und PrĂ€gung (Mikro-Analyse). Studien haben bislang entweder die makro- oder die mikro-analytische Perspektive angewandt. Durch den Einbezug beider Ebenen ist es uns gelungen, sowohl generalisierbare Tendenzen festzustellen als auch detaillierte linguistische Charakteristiken und diachrone VerĂ€nderungen von BewertungsausdrĂŒcken in verschiedenen Disziplinen zu untersuchen. Die StĂ€rken des in der vorliegenden Dissertation prĂ€sentierten Ansatzes liegen darin, dass er in einer linguistischen Theorie fundiert ist, die sich sehr hilfreich erwiesen hat bei der Hypothesenaufstellung und beim Testen der Hypothesen sowie auch bei der Interpretation der Ergebnisse. DarĂŒber hinaus hat der Ansatz eine empirische Analyse von Bewertungen in wissenschaftlichen Disziplinen durch das Zusammenspiel von korpus-basierten Methoden und Techniken aus dem Data Mining ermöglicht

    Evaluative meaning in scientific writing : macro- and micro-analytic perspectives using data mining

    Get PDF
    In this thesis, we elaborate characteristics of evaluative meaning of different scientific disciplines and trace their diachronic linguistic evolution. A main focus lies on newly emerged disciplines, such as computational linguistics, which emerged through contact between two other disciplines, such as computer science and linguistics. Here, we consider (1) whether these newly emerged disciplines have created characteristics of their own over time, showing a process of diversification, and (2) whether they have also adopted characteristics from their disciplines of origin, reflected in a linguistic imprint, and if this might have changed over time. The newly emerged disciplines considered are computational linguistics, bioinformatics, digital construction and microelectronics, which have emerged through contact between computer science and a further discipline (linguistics, biology, mechanical engineering, and electrical engineering, respectively). In terms of theory, this work is grounded in a linguistic theory rooted in sociolinguistics, Systemic Functional Linguistics (SFL; Halliday, 2004), which with its functional perspective on language allowed us to position evaluative meaning within a linguistic theory and to create a model of analysis to trace choices made in the semantic system on the level of lexico-grammar. Moreover, its notion of register, concerned with functional variation, i.e. variation according to language use, combined with the sociolinguistic perspective made it possible to compare the linguistic choices made according to different social contexts, to which the disciplines belong. This allowed us to trace register diversification processes and registerial imprint of evaluative meaning across disciplines. In terms of methods, we apply classification as a data mining technique, taking a macro- and micro-analytic perspective (cf. Jockers, 2013) on the results. Doing so we gain insights on the degree of diversification and imprint (macro-analysis) and the kind of diversification and imprint (micro-analysis). Studies so far have considered either the macro- or the micro-analytic perspective. By considering both, we are able to investigate generalizable trends as well as detailed linguistic characteristics of evaluative meaning across disciplines and time. The approach presented in this thesis draws its strength from being grounded in a linguistic theory, which proved to be extremely useful in defining and testing hypotheses and interpreting results. Moreover, an empirical analysis of evaluative meaning across disciplines and time was possible by combining corpus-based methods with data mining techniques.In der vorliegenden Dissertation werden Bewertungscharakteristiken verschiedener Wissenschaftsdisziplinen erarbeitet und ihre diachrone linguistische Entwicklung untersucht. Ein Hauptfokus liegt auf in neuerer Zeit entstandenen Disziplinen (z. B. Computerlinguistik), die sich durch Kontakt zwischen zwei anderen Disziplinen gebildet haben (z. B. Informatik und Linguistik). In diesem Zusammenhang wird erforscht, (1) ob diese neu entstandenen Disziplinen diachron ihre eigenen Charakteristiken entwickeln und somit einen DiversiïŹkationsprozess aufzeigen und (2) ob sie auch Charakteristiken der Ursprungsdisziplinen ĂŒbernehmen und somit eine linguistische PrĂ€gung aus der Ursprungsdisziplin vorweisen und ob sich diese möglicherweise diachron verĂ€ndert hat. Die untersuchten relativ neu entstandenen Disziplinen sind die Computerlinguistik, Bioinformatik, Bauinformatik und Mikroelektronik, die durch Kontakt zwischen der Informatik und einer anderen Disziplin entstanden sind, in unserem Fall entsprechend aus der Linguistik, Biologie, dem Maschinenbau und der Elektrotechnik. Die Arbeit basiert auf der soziolinguistischen Theorie der Systemisch Funktionalen Linguistik (SFL; Halliday (2004)). Aufgrund ihrer funktionalen Perspektive auf die Sprache war es uns möglich, das semantische Konzept der Bewertung in eine linguistische Theorie zu positionieren und ein Analysemodel zu entwickeln, um die Auswahl aus dem semantischen System auf der lexicogrammatischen Ebene nachzuverfolgen. Besonders wichtig ist hierbei auch das Registerkonzept aus der SFL, das sich mit funktionaler Variation befasst, d.h. Variation in Bezug auf den Sprachgebrauch. Die Kombination aus funktionaler Variation und soziolinguistischer Perspektive hat es erlaubt, die linguistischen Entscheidungen in Bezug auf Bewertungen, die in unterschiedlichen sozialen Kontexten (d.h. den verschiedenen Disziplinen) gefĂ€llt wurden, zu untersuchen und diese zu vergleichen. Dadurch konnten fĂŒr die untersuchten Disziplinen registerspeziïŹsche DiversiïŹkationsprozesse und PrĂ€gungen bezĂŒglich Bewertungen ausgemacht werden. Methodisch wurde aus dem Bereich des Data Mining die KlassiïŹkation angewandt, die es erlaubt hat, die Ergebnisse aus einer makro- und mikro-analytischen Perspektive (vgl. Jockers (2013)) zu erforschen. Dadurch konnten Erkenntnisse erlangt werden in Bezug auf den DiversiïŹkations- und PrĂ€gungsgrad (Makro-Analyse) sowie der Art der DiversiïŹkation und PrĂ€gung (Mikro-Analyse). Studien haben bislang entweder die makro- oder die mikro-analytische Perspektive angewandt. Durch den Einbezug beider Ebenen ist es uns gelungen, sowohl generalisierbare Tendenzen festzustellen als auch detaillierte linguistische Charakteristiken und diachrone VerĂ€nderungen von BewertungsausdrĂŒcken in verschiedenen Disziplinen zu untersuchen. Die StĂ€rken des in der vorliegenden Dissertation prĂ€sentierten Ansatzes liegen darin, dass er in einer linguistischen Theorie fundiert ist, die sich sehr hilfreich erwiesen hat bei der Hypothesenaufstellung und beim Testen der Hypothesen sowie auch bei der Interpretation der Ergebnisse. DarĂŒber hinaus hat der Ansatz eine empirische Analyse von Bewertungen in wissenschaftlichen Disziplinen durch das Zusammenspiel von korpus-basierten Methoden und Techniken aus dem Data Mining ermöglicht

    Registerial adaptation vs. innovation across situational contexts : 18th century women in transition

    Get PDF
    Endeavors to computationally model language variation and change are ever increasing. While analyses of recent diachronic trends are frequently conducted, long-term trends accounting for sociolinguistic variation are less well-studied. Our work sheds light on the temporal dynamics of language use of British 18th century women as a group in transition across two situational contexts. Our findings reveal that in formal contexts women adapt to register conventions, while in informal contexts they act as innovators of change in language use influencing others. While adopted from other disciplines, our methods inform (historical) sociolinguistic work in novel ways. These methods include diachronic periodization by Kullback-Leibler divergence to determine periods of change and relevant features of variation, and event cascades as influencer models.Peer reviewe

    Data Mining with Shallow vs. Linguistic Features to Study Diversification of Scientific Registers

    Get PDF
    We present a methodology to analyze the linguistic evolution of scientific registers with data mining techniques, comparing the insights gained from shallow vs. linguistic features. The focus is on selected scientific disciplines at the boundaries to computer science (computational linguistics, bioinformatics, digital construction, microelectronics). The data basis is the English Scientific Text Corpus (SCITEX) which covers a time range of roughly thirty years (1970/80s to early 2000s) (Degaetano-Ortlieb et al., 2013; Teich and Fankhauser, 2010). In particular, we investigate the diversification of scientific registers over time. Our theoretical basis is Systemic Functional Linguistics (SFL) and its specific incarnation of register theory (Halliday and Hasan, 1985). In terms of methods, we combine corpus-based methods of feature extraction and data mining techniques

    The diachronic development of combining forms in scientific writing. In: Lege artis. Language yesterday, today, tomorrow

    No full text
    This paper addresses the diachronic development of combining forms in English scientific texts over approximately 350 years, from the early stages of the first scholarly journals that were published in English to contemporary English scientific publications. In this paper a critical discussion of the category of combining forms is presented and a case study is produced to examine the role of selected combining forms in two diachronic English corpora.This study was funded by the German Research Foundation (DFG) in the framework of the project 'Information Density and Scientific Literacy in English – Synchronic and Diachronic Perspectives' in the Collaborative Research Center (SFB1102) with the title 'Information Density and Linguistic Encoding' (http://www.sfb1102.uni-saarland.de) and EXC 284: Multimodal Computing and Interaction (www.mmci.uni-saarland.de)
    corecore